27 mars 2026
Deux questions se posent :
Population \(\mathcal{U}\) de taille 12
Stratification par âge
Un plan de sondage \(p\) est dit stratifié lorsque :
Dans chaque strate \(h\), un échantillon \(s_h \subset \mathcal{U}_h\) est tiré à l’aide d’un plan de sondage \(p_h\).
On suppose de plus que les tirages sont réalisés indépendants d’une strate à l’autre (conditionnellement à l’allocation - voir plus loin).
L’échantillon \(s\) issu de \(p\) est l’union des sous-échantillons : \(\displaystyle s = \cup_{h \in [H]} s_h\).
Tirage dans chaque strate
L’estimateur du total de Horvitz-Thompson peut se réécrire : \[ \hat{t}_{y,\text{HT}} = \sum_{k \in s} \frac{y_k}{\pi_k} = \sum_{h \in [H]} \sum_{k \in s_h} \frac{y_{h_k}}{\pi_{h_k}} = \sum_{h \in [H]} \hat{t}_{y,h, \text{HT}}\].
Attention : ne pas confondre \(\pi_{h_k}\) (probabilité d’inclusion d’ordre 1 de l’individu \(h_k\)) et \(\pi_{hk}\) (probabilité d’inclusion d’ordre 2 des individus \(h\) et \(k\)).
et pour toute strate \(h \in [H]\), \(\bar{y}_h = \sum_{k \in h} y_{h_k}\).
Rappelons que dans le cas d’un SRS non stratifié de \(n = n_1 + ... + n_h\) parmi \(N = N_1 + ... + N_h\) : \[\mathbb{V}_{\text{non strat}}(\hat{t}_{y,\text{HT}}) = \frac{N^2}{n} \left(1 - \frac{n}{N} \right) S_y^2\]
\[\begin{align} S_y^2 &= \sum_{k \in \mathcal{U}} \left(y_k - \bar{y} \right)^2 \\ &= \sum_{h \in [H]} \frac{N_h - 1}{N - 1} S^2_{y,h} + \sum_{h \in [H]} \frac{N_h}{N - 1} \left(\bar{y}_h - \bar{y} \right)^2 \\ &\approx \color{red}{\sum_{h \in [H]} \frac{N_h}{N} S^2_{y,h}} + \color{blue}{\sum_{h \in [H]} \frac{N_h}{N - 1} \left(\bar{y}_h - \bar{y} \right)^2} \text{ pour } N_h \text{ assez grand} \end{align}\]
Dispersion intra et inter
Nous savons que :
Nous pouvons conclure que : \[\mathbb{V}(\hat{t}_{y,\text{HT}}) \lessapprox \mathbb{V}_{\text{non strat}}(\hat{t}_{y,\text{HT}})\]
L’estimateur de Horvitz-Thompson sous un SRS stratifié a une variance (généralement) plus faible qu’un estimateur de Horvitz-Thompson du total sous un SRS sans stratification.
La diminution de variance sera d’autant plus important que la dispersion intra est faible :
Le plan stratifié consiste donc à tirer des sous échantillons \(s_h\) dans chaque strate \(h \in [H]\) selon un plan de sondage \(p_h\)
Généralement, les plans de sondage sont de la même famille : SRS … On considère dans la suite des plans à taille fixe pour les plans \(\{p_h\}_{h \in [H]}\).
Il faut donc définir la taille \(n_h\) de chaque échantillon \(s_h\) avant le tirage.
Le vecteur \((n_1, ..., n_H)\) s’appelle l’allocation.
Comment choisir l’allocation ?
Dans ce cours, deux approches :
Dans chaque strate, l’échantillon est tiré de manière à avoir la même fraction de sondage (= rapport entre la taille de l’échantillon et la taille de la population).
Autrement dit, pour toute strate \(h \in [H]\), \(\frac{n_h}{N_h} = \frac{n}{N}\).
Avec une allocation proportionnelle, chaque individu a donc le même poids.
Intuitivement, l’allocation proportionnelle assure que chaque strate est représentée de la même manière dans l’échantillon.
L’allocation optimale se base sur une information auxiliaire scalaire \(\{x_k\}_{k \in \mathcal{U}}\) disponible sur tous les individus de la population \(\mathcal{U}\).
Il s’agit de considérer l’allocation qui minimise la variance de l’estimateur d’Horvitz-Thompson sous un SRS stratifié
Plus formellement, l’allocation optimale est solution du problème d’optimisation :
\[(n_1^*, ..., n_H^*) = \underset{(n_1, ..., n_H) \in \mathbb{N}^H}{\mathrm{argmin}} \sum_{h \in H} \frac{N_h^2}{n_h} \left( 1 - \frac{n_h}{N_h} \right) S^2_{x,h} \text{sous contrainte que} \sum_{h \in [H]} n_h = n\]
\[(n_1, ..., n_H) = (\frac{n N_1 S_{x,1}}{\sum_{h} N_h S_{x,h}^2},...,\frac{n N_H S_{x,H}}{\sum_{h} N_h S_{x,h}^2})\]
Supposons que nous voulions déterminer l’allocation optimale basée sur une variable \(x\) dont nous connaissons pour chaque strate \(h \in H\), la dispersion de \(x\) au sein de la strate \(S_x^2 = \frac{1}{n_h - 1} \sum_{k \in h} \left(y_{n_h} - \bar{y}_h \right)^2\).
La taille d’échantillon totale souhaité est de \(n = 20\).
Ces (racines de) dispersions sont données dans le tableau ci-après :
| Strate \(h\) | 1 | 2 | 3 |
|---|---|---|---|
| \(N_h\) | 10 | 20 | 20 |
| \(S_{x,h}\) | 100 | 200 | 250 |
On obtient ainsi : \(\sum_{h \in [H]} N_h S_{x,h} = 10 000\)
D’où l’allocation optimale \((n_1, n_2, n_3) = (2,8,10)\).
\[(n_1, ..., n_H) = (\frac{n N_1 S_{x,1}}{\sum_{h} N_h S_{x,h}^2},...,\frac{n N_H S_{x,H}}{\sum_{h} N_h S_{x,h}^2})\]
Supposons que nous voulions déterminer l’allocation optimale basée sur une variable \(x\) dont nous connaissons pour chaque strate \(h \in H\), la dispersion de \(x\) au sein de la strate \(S_x^2 = \frac{1}{n_h - 1} \sum_{k \in h} \left(y_{n_h} - \bar{y}_h \right)^2\).
La taille d’échantillon totale souhaité est de \(n = 60\).
Ces (racines de) dispersions sont données dans le tableau ci-après :
| Strate \(h\) | 1 | 2 | 3 | 4 | 5 |
|---|---|---|---|---|---|
| \(N\) | 10 | 20 | 20 | 10 | 20 |
| \(S_x\) | 100 | 200 | 250 | 500 | 250 |
| Allocation | 3 | 12 | 15 | 15 | 15 |
L’allocation optimale ici implique de tirer un échantillon de taille \(15\) dans la strate 4 constituée de 10 individus.
| Strate \(h\) | 1 | 2 | 3 | 5 |
|---|---|---|---|---|
| \(N\) | 10 | 20 | 20 | 20 |
| \(S_x\) | 100 | 200 | 250 | 250 |
| Allocation | 3 | 12 | 15 | 15 |
L’allocation optimale basée sur la variable \(x\) est donnée par \((3.3,13.3,16.7,10,16.7)\). Cette allocation devra être arrondie afin d’être utilisable donnant ainsi l’allocation \((3,13,17,10,17)\).
Il convient de choisir une variable \(x\) très correlée positivement à la variable d’intérêt \(y\).
Une allocation optimale basée sur une variable auxilaire \(x\) sera peut être avantageuse pour l’estimation d’une variable d’intérêt mais néfaste pour une autre.
L’allocation optimale ne permet de prendre en compte qu’une seule variable auxiliaire scalaire : il existe cependant d’autres méthodes permettant de calculer des allocations en fonction de plusieurs variables auxiliaires
Dans le TP 1, nous avons voulu estimer le nombre de boulangeries dans le Nord en réalisant un sondage.
Un échantillon de communes a été tiré avec deux plans de sondage donnant des résultats très différents :
Quid si on utilise un SRS stratifié à la place d’un SRS simple ?
Pour rappel :
Utilisation d’informations auxiliaires \(\to\) le nombre d’habitants dans la commune.
Comment utiliser cette information auxiliaire pour créer un plan stratifié ?
Allocation proportionnelle.
On obtient :
La stratification permet d’incorporer de l’information auxiliaire au moment de la construction du plan de sondage.
Un plan stratifié est un plan consistant en des tirages indépendants au sein de chaque strate.
Lorsque les tirages sont de taille fixe dans chaque strate, la taille des échantillons dans chaque strate est appelé allocation.
Nous avons vu deux approches pour calculer les allocations :